In this paper, we introduce neural texture learning for 6D object pose estimation from synthetic data and a few unlabelled real images. Our major contribution is a novel learning scheme which removes the drawbacks of previous works, namely the strong dependency on co-modalities or additional refinement. These have been previously necessary to provide training signals for convergence. We formulate such a scheme as two sub-optimisation problems on texture learning and pose learning. We separately learn to predict realistic texture of objects from real image collections and learn pose estimation from pixel-perfect synthetic data. Combining these two capabilities allows then to synthesise photorealistic novel views to supervise the pose estimator with accurate geometry. To alleviate pose noise and segmentation imperfection present during the texture learning phase, we propose a surfel-based adversarial training loss together with texture regularisation from synthetic data. We demonstrate that the proposed approach significantly outperforms the recent state-of-the-art methods without ground-truth pose annotations and demonstrates substantial generalisation improvements towards unseen scenes. Remarkably, our scheme improves the adopted pose estimators substantially even when initialised with much inferior performance.
translated by 谷歌翻译
Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
translated by 谷歌翻译
成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是,现有的神经描述符要么利用旋转变化的主链,其性能在较大的旋转下下降,要么编码局部几何形状,而局部几何形状不太明显。为了解决这个问题,我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征(PPF)中,旋转不变的局部几何形状被编码为几何描述符。随后,全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说,整个框架的3D结构首先由我们的全球PPF签名表示,从中学到了结构描述符,以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后,将稀疏区域的描述插值到密集的点描述符,从中提取对应关系进行注册。为了验证我们的方法,我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下,Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度,并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
由于全景分割为输入中的每个像素提供了一个预测,因此,非标准和看不见的对象系统地导致了错误的输出。但是,在关键的环境中,针对分发样本的鲁棒性和角案件对于避免危险行为至关重要,例如忽略动物或道路上的货物丢失。由于驾驶数据集不能包含足够的数据点来正确采样基础分布的长尾巴,因此方法必须处理未知和看不见的方案才能安全部署。以前的方法是通过重新识别已经看到未标记的对象来针对此问题的一部分。在这项工作中,我们扩大了提出整体分割的范围:一项任务,以识别和将看不见的对象分为实例,而无需从未知数中学习,同时执行已知类别的全面分割。我们用U3HS解决了这个新问题,U3HS首先将未知数视为高度不确定的区域,然后将相应的实例感知嵌入到各个对象中。通过这样做,这是第一次使用未知对象进行综合分割,我们的U3HS未接受未知数据的训练,因此使对象类型的设置不受限制,并允许对整体场景理解。在两个公共数据集上进行了广泛的实验和比较,即CityScapes和作为转移的丢失和发现,证明了U3HS在挑战性的整体分段任务中的有效性,并具有竞争性的封闭式全盘分段性能。
translated by 谷歌翻译
对于视觉操作任务,我们旨在表示具有语义上有意义的功能的图像内容。但是,从图像中学习隐式表示通常缺乏解释性,尤其是当属性交织在一起时。我们专注于仅从2D图像数据中提取删除的3D属性的具有挑战性的任务。具体而言,我们专注于人类外观,并从RGB图像中学习穿着人类的隐性姿势,形状和服装表示。我们的方法学习了这三个图像属性的分解潜在表示的嵌入式,并通过2到3D编码器解码器结构可以有意义地重新组装特征和属性控制。 3D模型仅从学到的嵌入空间中的特征图推断出来。据我们所知,我们的方法是第一个解决这个高度不足的问题的跨域分解的方法。我们在定性和定量上证明了框架在虚拟数据上3D重建中转移姿势,形状和服装的能力,并显示隐性形状损失如何使模型恢复细粒度重建细节的能力有益。
translated by 谷歌翻译
有效处理3D数据一直是一个挑战。大规模点云上的空间操作以稀疏数据存储,需要额外的成本。由于变形金刚的成功吸引,研究人员正在使用多头关注视力任务。但是,变压器中的注意力计算在输入数量和点云等集合的空间直觉中具有二次复杂性。我们重新设计了这项工作中的“变压器”,并将它们纳入形状分类以及部分和场景细分的层次结构框架中。我们建议我们的当地注意力单元,该单元捕获了空间社区的特征。我们还通过利用每次迭代的采样和分组来计算有效且动态的全局交叉注意。最后,为了减轻点云的非异质性,我们提出了一个有效的多尺度令牌化(MST),该标记(MST)提取了尺度不变的令牌以供注意操作。所提出的分层模型以平均准确性实现最新的形状分类,并以先前的分割方法的相同,同时需要更少的计算。我们提出的体系结构预测分割标签的标签约为以前最有效方法的延迟和参数计数的一半,具有可比的性能。该代码可从https://github.com/yigewang-whu/cloudattention获得。
translated by 谷歌翻译
在本文中,我们介绍了DA $^2 $,这是第一个大型双臂灵敏性吸引数据集,用于生成最佳的双人握把对,用于任意大型对象。该数据集包含大约900万的平行jaw grasps,由6000多个对象生成,每个对象都有各种抓紧敏度度量。此外,我们提出了一个端到端的双臂掌握评估模型,该模型在该数据集的渲染场景上训练。我们利用评估模型作为基准,通过在线分析和真实的机器人实验来显示这一新颖和非平凡数据集的价值。所有数据和相关的代码将在https://sites.google.com/view/da2dataset上开源。
translated by 谷歌翻译
尽管有广泛的可用性,但由于采集过程的投射性质,从明亮场显微镜(BFM)中获取的体积信息固有地很困难。我们从一组BFM Z-stack图像中研究了3D细胞实例的预测。我们提出了一种新型的两阶段弱监督方法,用于细胞的体积实例分割,这仅需要近似细胞质心注释。因此,创建的伪标签是通过Z-stack Guidance进行了新颖的改进损失来完善的。评估表明,我们的方法不仅可以推广到BFM Z-stack数据,还可以将其他3D单元成像模式推广到。我们的管道与完全监督的方法的比较表明,减少数据收集和标记的显着增益会导致较小的性能差异。
translated by 谷歌翻译
手术手术室(OR)为自动化和优化提供了许多机会。来自OR的各种来源的视频越来越多。医学界试图利用这些丰富的数据来开发自动化方法,以提高介入的护理,降低成本并改善整体患者的结果。因此,来自或房间摄像机的现有数据集的大小或方式限制了,因此尚不清楚哪些传感器方式最适合诸如识别视频外科手术的任务。这项研究表明,手术动作识别性能可能会根据所使用的图像方式而有所不同。我们对几种常用的传感器方式进行有条理的分析,并提出了两种改善分类性能的融合方法。这些分析是对18个腹腔镜程序的一组多视图RGB-D视频记录进行的。
translated by 谷歌翻译